Benchmark Refiner

source: https://www.pnas.org/doi/10.1073/pnas.1921046117#sec-1-2

Étant donné un ensemble d'instances d'une famille de ET putativement apparentées, l'outil RepeatModeler Refiner tente de construire un alignement d'amorçage (seed alignement) de haute qualité et d'en déduire une séquence consensus pour la famille.

seed alignement: c'est la technique dominante pour les comparaisons de séquences génomiques à grande échelle. BLASTN en est l'implémentation la plus populaire. Dans BLASTN, les correspondances exactes de w résidus contigus entre les séquences sont identifiées et ensuite étendues en alignements par programmation dynamique (source).

workflow refiner

Ce processus est amorcé en commençant par en effectuant d'abord une comparaison complète par paires de toutes les séquences et en sélectionnant, comme consensus initial, l'instance qui s'aligne le mieux sur toutes les autres.
Il est alors possible que la séquence initiale choisie ne s'aligne pas sur une petite partie des séquences d'entrée. Dans ce cas, les séquences non alignées sont maintenues dans un pool de candidats pour être éventuellement incluses dans d'autres itérations de raffinement du consensus.
Les alignements par paires avec la séquence choisie sont combinés dans l'alignement initial et un nouvel outil d'appel de consensus ajusté aux CpG est utilisé pour générer un consensus mis à jour pour la famille.
L'appel au consensus utilisé diffère d'un appel au consensus standard à règle majoritaire de deux manières: il évalue chaque base ancestrale possible ou code IUB de la colonne d'alignement d'origine en utilisant une matrice de substitution neutre, et il recherche une surreprésentation des produits de mutation CpG communs pour identifier correctement l'état ancestral des dimères CpG. La première étape utilise une matrice qui reflète les modèles de substitution d'ADN neutre observés.

Sampled sequences

The consensus length

The distance to the sample at 500 sequences